@9.2 弱个性化CEM,强个性化强化学习

通过不停分组让 CEM 算法实现个性化。随着区分越来越细,流量越来越少,CEM这种尝试+调整的路线就行不通了。#card

  • 其一,CEM自身没有学习环节来记忆探测后的表现,也不能从中获取规律;

  • 其二,CEM探测用的点之间互相没有联系,也没有什么规律能够共享。

如果有一个能做高度个性化的方法,它需要满足哪些条件?#card

  • ①和CEM一样,要能够接受非样本级的反馈;

  • ②要输出一个决策,改变当前的参数;

  • ③存在一个学习环节,学习到不同参数和对应奖励中间存在的规律。

作者

Ryen Xiang

发布于

2025-06-07

更新于

2025-06-07

许可协议


网络回响

评论